いっちょー@非エンジニアのアプリ開発記録

273 posts

いっちょー@非エンジニアのアプリ開発記録 banner
いっちょー@非エンジニアのアプリ開発記録

いっちょー@非エンジニアのアプリ開発記録

@icchooo_AI

「非エンジニアでも出来る」「日常の不便を少しでも楽に」 これをコンセプトにClaude Codeでアプリ開発している福島出身の30代です。 主に成果物とその過程、たまにAI情報を発信📡 日常、副業、仕事にまつわる「こんなのあったら良いな」を形にしていきます🛠️いいね、フォロー、応援よろしくお願いします🙇‍♂️

Katılım Nisan 2026
58 Takip Edilen122 Takipçiler
いっちょー@非エンジニアのアプリ開発記録
X投稿5週間目のご報告です📊 フォロワー68→119人(+75%)🎉 100人突破!😆🎊 無反応だった濃霧の中から少しだけ抜け出せて、健全に伸びてい…る…??という感覚です🫣笑 開発の中身、進捗よりも自分の心境をあけすけに吐露した投稿が跳ねました⏫️ やはり魂の叫びは伝わるものですね😆 #振り返り
日本語
0
0
5
67
しゃけばたー|AIで生活を少し楽に
77,526分。 4月からnoteを始めて、54日と20時間6分。 何もなかった初心者でしたが、 ついに記事を購入していただけました! ずっと「本当に意味あるのかな」って不安だったので、0→1を達成できたのがすごく嬉しいです。 今日はちょっとだけ、自分を褒めたい。 そしてこの嬉しさを、どうしてもここで報告したかった! 副業初心者の皆さん。 派手じゃなくても、積み上げはちゃんと力になると思います。
しゃけばたー|AIで生活を少し楽に tweet media
日本語
6
0
13
202
空飛ぶ研究室/アプリ作ってるひと
仕事中に音楽とか聞きますか? 私は「勇者ヨシヒコ」などのドラマを聞きながら作業してます。 音楽を聞いている人は、もしよかったら何を聞いているか教えてください! #個人開発 #indeidev
日本語
2
0
4
175
MASHRO|AI実装・1人で実践中
これ、自分に刺さった。 正直Xを初めてこんなに反応をもらえたのは初めてで驚いてる。 昨日の98万インプは、規格外さんが長年積み上げてきた信頼のおかげで、自分の歯科の知識を乗せてもらった形で見てもらえた。 だからこそ改めて思う。 自分も何かしらの信頼を積み上げていかないと、いざ波が来ても乗りきれない。 まずは自分の持ってる知識を言語化して積み重ねること。
MASHRO|AI実装・1人で実践中 tweet media
規格外@shinkaron

Xやってる人は等しく経験しているはずだが、どれほど渾身の力を込めて言葉を放っても、誰からの反応も得られない時期がある。 底の抜けたバケツに水を注ぎ続けているような徒労感。多くの人はここで歩みを止めてしまう。 しかし、表面的な数字には現れないだけで、読み手の心の中には確実に 「信頼残高」が蓄積され始めている。 それはまるで、乾いたスポンジが少しずつ水分を蓄え、やがて飽和点に達するのを待っているかのような、見えざる成熟プロセスといえる。 SNSにおける「いいね」の数は、目に見える氷山の一角に過ぎない。 現実にはいいねを押さない読者が多数を占めており、実際に文章を読んでくれている人はその数十倍に上る。 ただ、すぐに目に見える行動は起こさず、発信者が継続して価値を提供できる人間かどうかを見極めるため、時間をかけて観察を続けているだけのこと(あなたも同じだろう)。 物事の成長は、期待するような右肩上がりの直線を描くわけではない。長く平坦で報われない期間を経て、ある日突然数字が跳ね上がる。 この事実を理解していないと、成果が見えない日々に耐えきれず、自ら退場を選んでしまうことになりかねない。 数字の増減に一喜一憂する必要はない。私たちがなすべきは、画面の向こう側にいる相手の心へ、自身の信じる価値を渡し続けることだけである。 やがて信頼残高が閾値を超えて、複利のエンジンが本格的に稼働し始めたとき、これまでとは全く異なる現実が目の前に現れる。 そこまで折れずに積み上げた者にのみ、「一者総取り」の世界が現出する。

日本語
1
2
5
1.8K
いっちょー@非エンジニアのアプリ開発記録
@kbt_sjf @techcrunch 小鳩さん初めまして!フォローありがとうございます😭✨️ AIを使って個人開発に取り組んでいるいっちょーと申します🙏 見つけてもらう▶選んでもらう▶継続利用されるのそれぞれがかなり高い壁ですよね😅 活動を続け、地道に自分の認知を広げて行こうと思います🫡今後ともよろしくお願いします🙇‍♂️
日本語
0
0
3
38
小鳩🕊️個人開発
AppStoreはAI製アプリの急増でかなりカオス化してるらしい。AIで誰でも作れる時代になったけど、これからは「作れる」より「継続利用される」が超重要。 The App Store is booming again, and AI may be why techcrunch.com/2026/04/18/the… @techcrunchより
日本語
1
1
14
487
いっちょー@非エンジニアのアプリ開発記録
@2Zyuragi 揺らぎ〜さん初めまして!リプありがとうございます🙏 お前のことが心配で言ってるんだぞ。系の説教ってAIも言うんだと思いました🤣 僕はずっとClaudeを使っています😃このやり取りはチャットの方で起こりました!
日本語
0
0
0
14
揺らぎ
揺らぎ@2Zyuragi·
@icchooo_AI 「心配してるんです」が面白いですね。ちなみにモデルは何を使われてますか?
日本語
1
0
1
15
いっちょー@非エンジニアのアプリ開発記録
超小心者の自分は作成した投稿文をよくAIに 「これでどう?」「炎上しない?」「言い回し変かな?」 などと聞いたりするのですが、昨晩ついに見放されました😇笑 そんなイライラしなくたっていいじゃんかぁ🥹
いっちょー@非エンジニアのアプリ開発記録 tweet mediaいっちょー@非エンジニアのアプリ開発記録 tweet media
日本語
2
0
15
269
いっちょー@非エンジニアのアプリ開発記録
@yuto_kkk5 KOUさん初めまして!フォローありがとうございます😊 AIを使って個人開発をしているいっちょーと申します🙏 前提が揃ってなかったら論争の落としどころなんて見つかるはず無いですもんね😇そりゃあ白熱するかという🤣 けどこれがネットの面白いところだなぁと思ったりもします😁
日本語
0
0
1
29
KOU@エンジニア
KOU@エンジニア@yuto_kkk5·
コード読む読まない論争、結局責任が取れるかどうかだと思った。趣味や個人利用ならAI onlyで全く問題ないしそれがbestまであるが、受託や業務開発では被害が出たら責任を問われる。本来は後者でどこまでAIを使って攻めるかが面白い議論なのに、前者と混ざってることが多い。
日本語
1
1
4
112
いっちょー@非エンジニアのアプリ開発記録
@kuragechan_1002 クラゲちゃんさん初めまして!フォローといいねありがとうございます🙇‍♂️ AIを使って個人開発に取り組んでいるいっちょーと申します😊 学習記録、軽く見させて頂きました👀✨️ 僕は非エンジニアで、こういうの全く分からないので教えてくださいっ!!🙏笑 今後とも仲良くして頂けたら嬉しいです!🙌
日本語
0
0
2
47
クラゲ🪼ちゃん
クラゲ🪼ちゃん@kuragechan_1002·
JavaはVScodeで書いてたのでeclipseがあまりつかえませぬ eclipseなくても大丈夫(乂'ω')ノー
日本語
1
0
10
258
akihiro.
akihiro.@Aki_Works729·
@icchooo_AI AI達の次の自分達への引継ぎもうちょっと改善できないんですかねwww 説明し直しがホントに時間の無駄すぎて🤣
日本語
1
0
1
10
akihiro.
akihiro.@Aki_Works729·
コンテキストウインドウが圧迫されて話が通じなくなる前に次のルームへここまでやったから次のルームではここからやろう!みたいなまとめ文章作らせてるのに次のルームで、ではここのためにこれをやりましょう!みたいな方針の転換ばかりなのめんどくないです?
日本語
1
0
1
26
いっちょー@非エンジニアのアプリ開発記録
@Den_scoth_Mn いえいえ!全く礼には及ばないです!👋 相談とかも乗ってあげたいのですが、feinさんの投稿見ても高度すぎて何やっているか正直分かりません🤣笑 でもビールとおつまみは頂きまーす😍わーい🍺✨️
日本語
1
0
1
9
fein_AS
fein_AS@Den_scoth_Mn·
@icchooo_AI AIエージェント体験はいっちょーさん達、フォロワーさんの背中押しがあってこそ☺️ その節はありがとうございました✨ ものすごい議論になっているようで、想定を遥かに超えてますね😮 いっちょーさんもいっしょに観戦しましょ! 場所取りもしてあるし、ビールとおつまみ買っておきましたよ🍻
日本語
1
0
1
9
fein_AS
fein_AS@Den_scoth_Mn·
バイブコーディング🆚人力コーディング流行ってるね😆ww まぁええんでないの❓️ 本人が困らないなら、どっちやってようが 私は両方やるけど、どっちみち趣味だからね🎵 でも観戦してるのはおもしろい🤣ww #個人開発
日本語
1
0
10
236
むら雲 | 個人開発
むら雲 | 個人開発@murakumo_dev·
ツイート文書いてるとついカッコつけたこと言いたくなってしまう 抑えろ...自分は何者でもないだろう...
日本語
1
0
6
67
吉岡 裕貴
吉岡 裕貴@yoppy0123·
@icchooo_AI こちらこそよろしくお願いします! Claude/Codexどちらも便利なので両方使っています!
日本語
1
0
1
21
吉岡 裕貴
吉岡 裕貴@yoppy0123·
Claude CodeでUsage Limitsにすぐ達してしまう方向けに、原因になりがちな使い方と対策をまとめました。 トークン消費の仕組み理解して効率的に使いたい方もぜひ読んでください! zenn.dev/aun_phonogram/…
日本語
4
90
719
68K
いっちょー@非エンジニアのアプリ開発記録
@d_create0804 D-CREATEさん初めまして!フォローありがとうございます🙏 AIを使って個人開発をしているいっちょーと申します😊 自分の制作物の進捗を知ってもらうのは大事だと思ってましたが、それをアプリにしようというのは盲点でした😳面白いアイデアですね✨️ 開発仲間として今後ともよろしくお願いします🙇‍♂️
日本語
1
0
1
18
D-CREATE|個人開発
D-CREATE|個人開発@d_create0804·
新しい個人開発者向けWebアプリ 「Nokomise」を作ります! AIで開発してると、 「今日なに直したっけ?」 「残りタスクなんだっけ?」 「LP作るの面倒…」 「スクショもログも散らばる…」 ってなりがちなので、 Markdownログとスクショを投げるだけで、 進捗・仕様変更・次タスク・残タスク・LP下書きを整理するアプリです。 開発者のAIトークンを無駄に使わせない設計にします。 βテスター募集します! 個人開発してる方、試してくれる方いたらリプかDMください🙏 6月の最初の週には見せれる形になると思います #個人開発 #テスター
D-CREATE|個人開発 tweet media
日本語
4
1
13
884
いっちょー@非エンジニアのアプリ開発記録
@kludgelog kludgelogさんリプありがとうございます!✨️ 自分の中だけで良くしようとこねくり回していても答えが出ないことも多いですしね😌 即決、即断、即行動!これからも意識したいところですね😊
日本語
0
0
0
3
いっちょー@非エンジニアのアプリ開発記録
今週の学び💡 「失敗するなら早い方がいい」 サイトを出してみて、自分の凡ミスにより大幅な改修を迫られましたが 最低限の実装のみを行ってすぐ公開したことで、結果的に傷は浅かったです😃 まずは出す。擦り傷、転倒上等で致命傷だけ防げればいい。実体験として良い血肉になりました😁 #個人開発
日本語
2
1
33
331
Joel
Joel@Joelc_eth·
SPIN-Bench: In-Depth Analysis of Large Language Models' Strategic Planning and Social Reasoning Capabilities Sentient @SentientAGI The recent, swift progression in artificial intelligence research has ushered in remarkable advancements, especially in the competence of Large Language Models (LLMs) across text generation, context understanding, and various agent-based tasks. This leap forward has effectively paved the way for deploying LLM-based agents in sophisticated real-world scenarios, including advanced digital assistance, complex decision support systems, and collaborative human-AI partnerships. Nevertheless, numerous tasks within these crucial domains demand competencies that significantly exceed simple question-answering or short-term, superficial inferences. They require deep strategic planning and nuanced social intelligence. Strategic Planning fundamentally involves the capacity for long-term deliberation, which mandates the formulation of multi-step goals within vast action and state spaces. Social Intelligence, conversely, encompasses vital abilities such as discerning the hidden intentions and beliefs of other agents, effective negotiation, complex cooperation, and strategic competition. These two capabilities are profoundly interconnected and form the bedrock of truly intelligent behavior, particularly in dynamic, multi-agent environments. A critical limitation of current evaluation sets is their narrow focus, primarily concentrating on either isolated planning tasks or single-agent reasoning problems. This leaves a significant gap, as they lack a comprehensive, integrated framework to measure these two pivotal abilities simultaneously and holistically. To comprehensively address this deficiency, the Strategic Planning, Interaction, and Negotiation (SPIN-Bench) framework was meticulously developed. Its central aim is to systematically measure the LLMs' combined strategic planning and social reasoning capabilities across multiple distinct domains, with complexity levels that systematically and progressively increase. SPIN-Bench achieves this integration by unifying several critical task types under one robust umbrella: 1.Planning Domain Definition Language (PDDL) tasks. 2.Competitive board games. 3.Cooperative card games. 4.Complex multi-agent negotiation scenarios (like Diplomacy). This unified structure allows for an unprecedented, in-depth analysis of how LLMs integrate their aptitude for methodical, step-by-step planning with their capacity for conceptual social inference. Crucially, it enables researchers to observe precisely how this integration performs and where it breaks down as the inherent complexity of the task intensifies. This comprehensive work details the SPIN-Bench framework, presents the empirical results derived from its use, and outlines the profound insights gained regarding the current capabilities and critical limitations of LLMs. Definition and Philosophy of the SPIN-Bench Framework SPIN-Bench is conceptualized as a multi-domain, highly comprehensive evaluation and simulation environment specifically engineered to rigorously measure the sophisticated reasoning and strategic behavior of LLMs within social contexts. Its core philosophical tenet is the recognition that true intelligence—as demonstrated by strategic and social reasoning—is fundamentally more complex and sophisticated than mere isolated planning or reasoning tasks performed in static environments. Distinct from most existing benchmarks, SPIN-Bench avoids a focus on narrow planning or single-agent reasoning. Instead, it consolidates PDDL tasks, competitive games, cooperative games, and complex negotiation scenarios into a unified framework, functioning simultaneously as a benchmark and a realistic arena for stress-testing AI agents' reasoning and strategic acumen. The foundational design principle involves systematically manipulating the scale of action spaces, the complexity of the state representation, and the total number of interacting agents. This deliberate variation is used to construct diverse social environments where ultimate success hinges not solely on a methodical, step-by-step decision process but equally on accurate conceptual inference about the other, potentially adversarial or cooperative, participants. Through this, the framework seeks to meticulously identify the specific conditions under which LLMs excel, the precise capabilities where they exhibit deficiencies, and the fundamental reasons underpinning these observed shortcomings. SPIN-Bench is envisioned as a vital catalyst for propelling future research into robust multi-agent planning, sophisticated social reasoning, and effective human-AI team formation. The Four Main Components of SPIN-Bench SPIN-Bench's evaluation of LLMs' strategic planning and social reasoning capabilities is structured around four distinct, yet integrated, main components, each escalating the complexity and the demands on the LLM: 1. PDDL Tasks (Classical Planning):This component is the entry point, establishing a baseline by testing core reasoning skills in a fully controlled, deterministic environment. It includes: -- Factual Retrieval: Tests the basic recall of facts across domains like elevator and floor tile, often with expanding state spaces. -- Spatial Reasoning: A scenario to test the ability to track an agent’s position based on sequential, relative movement instructions. -- Full Classical Planning Tasks: A large set of 1,280 tasks across 21 domains demanding sequential decisions, resource management, and constraint handling. The goal is to isolate failures, identifying causes like poor state tracking or chain-of-thought breakdown. Competitive Games: Designed to assess adversarial reasoning, this component uses three popular turn-based games of increasing strategic depth: -- Tic-Tac-Toe: Focuses on short-term foresight. -- Connect Four: Requires deeper, multi-step tactical analysis. -- Chess: The ultimate test of deep tactical calculation and complex, long-term strategy against established AI solvers (e.g., Minimax, Stockfish) and human baselines. 2. Cooperative Game (Hanabi): This challenging card game evaluates multi-agent collaboration under conditions of incomplete information. Players cannot see their own cards but must communicate indirectly (via limited clues) to coordinate actions and achieve a shared, perfect score. It is a rigorous test of advanced Theory of Mind reasoning, requiring LLMs to infer the beliefs and intentions of teammates to execute coordinated actions. 3.Strategic Game (Diplomacy): As the most demanding component, Diplomacy is a multi-player game focused on negotiation, dynamic alliances, and strategic deception. Players must formulate long-term military plans while simultaneously engaging in complex, open-ended communication to secure or betray alliances. This environment captures a broad spectrum of realistic social behavior, testing the LLM's capacity for strategic adaptation, persuasion, and managing trust in a partially cooperative and partially competitive setting. Evaluation Metrics and Experimental Setup SPIN-Bench employs a dual system of evaluation: objective rule-based metrics and qualitative LLM-assisted social metrics, designed to provide a comprehensive performance analysis across a wide range of state-of-the-art LLMs. Rule-based Metrics --Classical Planning Tasks: Accuracy (is the plan correct?) and N-Step Look Ahead (how far ahead does the model plan?). --Competitive Games: Top-k Action Percentage vs Solver (how close is the move to the optimal move?) and Internal Elo Rating (relative skill comparison among LLMs). --Cooperative Game (Hanabi): Final Score (direct measure of cooperation success). Strategic Game (Diplomacy): Factual Consistency (do orders follow game rules?), Order-level Success Rate, and Final Game Outcome (supply centers controlled). LLM-assisted Negotiation Metrics For negotiation-heavy environments like Diplomacy, the quality of the communication is assessed using a powerful LLM (Claude 3.7 Sonnet) as an evaluator across six dimensions on the chat logs: 1.Strategy Alignment Ratio: Consistency of messages with the stated strategy. 2.Acceptance Rate: Rate at which the LLM's proposals are accepted by others. 3. Mutual vs. One-sided Benefit: Tendency to propose fair or unilaterally advantageous deals. 4.Peace vs. Conflict Inclination: The general tone of the communication. 5.Perspective-taking: Evidence of understanding other agents' hidden beliefs or intentions. 6.Conditional Negotiation: Frequency of "if... then..." tactics in proposals. Experimental Setup A broad range of commercial (closed-source) and open-source LLMs were rigorously evaluated, including GPT-4o, o1, Claude 3.5 Sonnet, Llama3.1-70b, DeepSeek-R1, among others. A unified interface provided models with the current state, history, legal actions, and game-specific Chain-of-Thought prompts. The Diplomacy engine was fully integrated to simulate complex multi-turn interactions with messaging. Analysis of LLMs' Fundamental Planning Competencies The analysis focused on isolating fundamental planning deficits: Factual Retrieval: While LLMs handled simple One-hop Queries (e.g., "Which locations does Russia control?") well, performance dropped notably on Multi-hop Queries (e.g., "Attack Analysis"), which require combining multiple facts and deeper inference. This indicates that complex information synthesis remains a significant challenge. Spatial Reasoning: Tasks requiring models to track their position through long sequences of relative movements showed that performance degrades as the sequence length increases. Advanced models like o1 proved more robust, maintaining high accuracy up to 29 steps, but many LLMs struggle to sustain complex spatial relationships over time. Error Analysis (Classical Planning): Errors were classified: 1.Breaking Constraints (BC): Execution errors. 2.Goal Not Satisfied (GS): Logically incomplete plans failing to reach the goal. Analysis revealed distinct weaknesses: Claude 3.5 Sonnet had a high GS rate (44.77%), suggesting good constraint adherence but poor goal-oriented plan completion. In contrast, RL-trained DeepSeek R1 minimized GS (3.65%) but had a higher BC rate, suggesting better goal-logic but worse execution. The data showed that the nature of failure is model-dependent. Effect of Action Complexity and Multi-Agent Scale on Planning Performance Complex or Expansive Action Spaces PDDL Domains: Model accuracy showed a stronger negative correlation with the total state-action space than with the average number of legal actions per step. This suggests LLMs are cognitively burdened by the vast potential for future state expansion (the "search burden"), hindering their pathfinding ability. Competitive Games: In Connect Four and Chess, all LLMs were defeated 100% against solver-level opponents, demonstrating that deep, multi-step tactical calculation remains far beyond their current capacity. Internal Elo ratings placed o1-preview and o1-mini highest, indicating relative superiority in strategic management compared to other LLMs, but still significantly below human expert or solver performance. Scaling Number of Agents -- Hanabi (Cooperative): The best model, o1, saw its score drop as the number of players increased from 2 (16.4) to 5 (14.2). Crucially, no LLM approached even the first quartile of human scores. This highlights a profound deficit in coordinating strategies and tracking information states across multiple incomplete channelsa failure of social intelligence under uncertainty. --Diplomacy (Strategic): Increasing the number of agents led to decreased order accuracy and successful attacks. The performance of strong planners like o1 was often negatively affected by the introduction of negotiation, suggesting that the cognitive load of managing social interactions and dynamic alliances can undermine the model's core planning coherence. Social Intelligence and Negotiation Performance Cooperative Scenarios vs. Human Baselines (Hanabi) The vast majority of human-played Hanabi scores cluster between 15 and 25 points. LLMs consistently failed to reach this range, confirming a pervasive social intelligence gap, particularly in perspective-taking and coordinated action based on inferred team knowledge. Negotiation in Diplomacy The inclusion of an explicit negotiation phase in Diplomacy often led to counterintuitive results. For the most capable planners like o1, end-game scores (Supply Centers) dropped significantly with negotiation, indicating that intense social interaction potentially disrupted their extended chain-of-thought planning. (Negotiation Message Analysis): A deep-dive analysis of negotiation messages using the LLM-assisted metrics provided insights into agent behavior:o1 showed the highest Acceptance Rate (%67) and a strong preference for Peaceful messaging (9.26 ratio). DeepSeek-R1 showed a higher inclination towards Conflict (0.95 peace ratio) and the most frequent use of Conditional Tactics (51%). Models generally achieved high Strategy Alignment ($>0.98$) but struggled with consistent, long-term strategic adaptation in the face of betrayals. Conclusion and Future Perspectives SPIN-Bench has served as a rigorous and comprehensive framework, revealing both the strengths and critical limitations of LLMs in strategic planning and social intelligence across a spectrum of tasks. The key takeaway is that while LLMs handle fundamental tasks well, they face significant performance bottlenecks in deep, multi-step reasoning over expansive state spaces and in coordination requiring social skills under uncertainty. No LLM demonstrated human-level competency in high-stakes, incomplete information, or highly social strategic games. The observation that social interaction can actively destabilize the planning coherence of even the strongest LLMs (like o1) is a crucial finding that necessitates further investigation. Future work should focus on developing models that are more capable of adaptive prompting, extending the benchmark to cover even broader aspects of social intelligence, and specifically addressing the cognitive friction between deep planning and managing dynamic social interactions. In conclusion, SPIN-Bench clearly underscores the current insufficiencies of LLMs in managing long-term, multi-agent scenarios. We anticipate that this benchmark will be instrumental in catalyzing the development of LLMs that are not only more strategically adept but also possess the necessary social intelligence for robust and effective human-AI collaboration.
Joel tweet mediaJoel tweet mediaJoel tweet mediaJoel tweet media
English
108
8
865
19.3K